余弦相似度:一种衡量两个向量(如文本特征、用户偏好、词向量等)方向是否相近的指标,取它们夹角余弦值。值通常在 -1 到 1 之间(很多非负特征场景下常见为 0 到 1);越接近 1 表示越相似,越接近 0 表示相关性弱。常用于信息检索、文本相似度、推荐系统与机器学习特征比较。
/ˈkoʊsaɪn ˌsɪməˈlærɪti/
We used cosine similarity to compare two documents.
我们用余弦相似度来比较两篇文档。
After converting sentences into embeddings, the model ranks answers by cosine similarity to the query, reducing the effect of text length.
把句子转换成向量表示后,模型按与查询的余弦相似度对答案排序,从而减弱文本长度带来的影响。
cosine 来自数学术语 “cosine(余弦)”,与 “sine(正弦)”同属三角函数体系;similarity 源自拉丁语 similis(相似的)。该短语在现代计算机科学与信息检索中被广泛采用,用“夹角的余弦”来表达“向量方向上的相似程度”。